多个组学数据筛选利器:Venn与Upset图 | 转录调控专题
韦恩图(Venn)是用于显示集合(如基因集合)重叠区域的关系图。通过图形(或椭圆形)之间的层叠,可以表示集合与集合之间的相交关系。我们可以用韦恩图筛选不同比较组(不同基因集)共同的元素和特有元素,比如共同差异表达基因、某比较组特异差异表达基因等,并将这种筛选过程和结果可视化。虽然Excel也可以进行交集和并集的筛选,但韦恩图可以更简单地将筛选过程和结果可视化。
比如研究人员通过韦恩图筛选25μM胱氨酸处理后人类大肠癌细胞系HCT116、RKO共同差异上调和下调的基因,找到两个细胞系变化一致的基因,随后对筛选到的基因集进行富集分析,探索可能涉及细胞响应胱氨酸处理的KEGG通路。
但当基因集数目较多时,比如大于5组时,韦恩图可能就不是特别适合进行数据筛选的可视化了,因为其相交的区域太多。当数据集数目多于5时,可以考虑使用upset图进行数据筛选与可视化,如下图。下图左侧柱状图展示各原始数据集(各比较组差异miRNA)中包含的元素总量;下图下方交集点的部分,通过横向的对应关系,用点指代左侧的对应数据集名称。通过纵向实现点与点之间的连接,来表示对应数据集之间存在交集的情况,即通过点与点之间的连接对应传统韦恩图中圈与圈的重叠。下图下方通过纵向的对应关系,对应上方柱状图,表示该交集情况下的交集元素数量。在upset图中的关注交集区域或某基因集特异区域可以使用强调色(如红色)标示柱子和纵向点间连接,以可视化目标miRNA集的筛选过程。
韦恩图应用特别广泛,比如在预测miRNA可能的靶基因时,可以使用多款工具预测,然后利用韦恩图筛选交集,以筛选出更可靠的靶向关系。利用韦恩图可以筛选不同细胞系相同处理变化趋势一致的基因集,可以筛选出不同细胞系基因过表达和基因敲低变化趋势相反的基因集,可以筛选出造模后药物治疗后表达水平有回复的基因集。总之,我们可以利用韦恩图筛选出关注变化趋势的基因集,然后再分析它们的功能。
对于不同物种(更多是模式物种),我们也可以利用韦恩图筛选出不同物种中某种处理或生命活动中变化趋势一致的基因,但是不同物种具有不同的基因ID和转录本ID,但可能具有相似的基因名,比如人和小鼠的同源基因的基因名是相似的,一般是大小写不同。基于此,我们可以将基因名都转换为大写或小写,然后再利用韦恩图筛选。如果没有相似的基因名,则可以考虑基于序列相似性进行同源基因的粗略分析,进行基因名转换后再利用韦恩图筛选。
m6A修饰基因、METTL3结合基因和受METTL3缺失影响蛋白相交情况
韦恩图最重要的是需要使用同一种元素,比如都使用基因名,都使用基因ID等等。对于不同物种间的筛选需要基因名对应,对于蛋白质组学和转录组测序联合分析需要将蛋白名转换为基因名再进行联合筛选。总之韦恩图(或upset图)是数据筛选与可视化利器,可以帮助我们进行数据筛选与可视化。下面介绍几种绘制韦恩图的方法。
(http://bioinformatics.psb.ugent.be/webtools/Venn/)
利用VENN DIAGRAMS网站可以计算元素列表的交集,网站将生成一个文本输出,指示哪些元素在每个交叉点中或对于某个列表(基因集)是唯一的。如果列表的数量小于7,会以Venn图的形式输出(矢量图svg格式和PNG格式)。目前,VENN DIAGRAMS最多可以计算30个列表的交集。
输入网站的列表每行只能包含一个元素(比如一个基因名或基因ID),但行数没有限制。元素以区分大小写的方式处理(小写和大写被视为两个不同的元素,比如GAPDH和Gapdh是两个不同元素)。
(https://bioinfogp.cnb.csic.es/tools/venny/index.html)
Venny2.1是非常轻量级的网站(虽然最多支持四组,不过大部分情况下够用了),直接将自己关注的几个基因集复制(可以基于Excel的列复制到List空白即可)到几个List中即可(一个基因一行),然后点击右侧关注区域的数字,即可获得对应的基因信息。Venny2.1还有个小功能(特殊情况下使用),通过点击UPPERCASE和lowercase可以将输入元素全部变为大写或小写,然后进行数据相交情况的可视化。
将元素全部转换为大写或小写一般用于筛选不同物种的基因集相交情况,韦恩图的筛选关键是输入的基因集必须是同种类型的元素,比如都为基因ID或都为基因名(symbol)。基因ID物种间一定是不同的,而基因名可能相同或相似,只是大小写的区别,比如GAPDH和Gapdh。如果我们需要筛选小鼠体系和人源样本中的基因集交集情况,可以使用基因名,并将其全部变为大写或小写进行筛选。
稍显遗憾的是Venny2.1只能保存PNG格式图片(鼠标右键>>>将图形另存为),图片分辨率是固定的,无矢量图。
(http://jvenn.toulouse.inra.fr/app/example.html)
jvenn与Venny2.1类似,是个轻量级网站,最多支持六组数据集,支持四种不同字体(一般主要用Arial),同时针对不同圆提供颜色选择功能。使用方法同Venny2.1,将基因list输入到不同的List框中即可。
(https://www.omicstudio.cn/tool/6)
OmicStudio上的韦恩图绘制模块可以支持最多五组的韦恩图绘制,同时提供一键下载所有交集(或区域)的基因信息。
支持上传Excel格式数据,将各基因集数据复制到新Excel中,将第一行设为各组组名,之后上传即可。OmicStudio可以调整字体大小、区域颜色以及标签(组名)的位置,同时提供矢量图和位图的格式选择。
OmicStudio支持上传Excel格式文件,提交表格格式(将不同基因集分列即可)和工具界面如下:
如果超过五组,可以使用OmicStudio的upset图进行数据筛选与可视化。(https://www.omicstudio.cn/tool/43)
Wu J, Yeung SJ, Liu S, Qdaisat A, Jiang D, Liu W, Cheng Z, Liu W, Wang H, Li L, Zhou Z, Liu R, Yang C, Chen C, Yang R. Cyst(e)ine in nutrition formulation promotes colon cancer growth and chemoresistance by activating mTORC1 and scavenging ROS. Signal Transduct Target Ther. 2021 May 28;6(1):188. doi: 10.1038/s41392-021-00581-9. PMID: 34045438; PMCID: PMC8160199.
Tong B, Shi Y, Ntambiyukuri A, Li X, Zhan J, Wang A, Xiao D, He L. Integration of Small RNA and Degradome Sequencing Reveals the Regulatory Network of Al-Induced Programmed Cell Death in Peanut. Int J Mol Sci. 2021 Dec 27;23(1):246. doi: 10.3390/ijms23010246. PMID: 35008672; PMCID: PMC8745729.
Song H, Song J, Cheng M, Zheng M, Wang T, Tian S, Flavell RA, Zhu S, Li HB, Ding C, Wei H, Sun R, Peng H, Tian Z. METTL3-mediated m6A RNA methylation promotes the anti-tumour immunity of natural killer cells. Nat Commun. 2021 Sep 17;12(1):5522. doi: 10.1038/s41467-021-25803-0. PMID: 34535671; PMCID: PMC8448775.
除了ceRNA,circRNA研究还能怎么做?|转录调控专题
这个分析可以提升转录组逼格,联川即将更新(文末有彩蛋) | 转录调控专题
基础篇:全转录组测序介绍,科研小白的进阶之梯!| 转录调控专题
所见即所得,绘图高规格联川云平台,让科研更自由